ОГЛАВЛЕНИЕ
Введение 2
1 Теоретические аспекты ранжирования информации в выдаче поисковых систем. 5
1.1 Сущность организации и управления информацией в поисковых системах 5
1.2 Факторы ранжирования сайтов в выдаче поисковых систем 9
1.3 Анализ существующих алгоритмов ранжирования в поисковых системах яндекс и Google 14
1.4 Анализ средств для создания моделей нечеткой логики 21
2 Проектирование и построение модели определения рейтинга школьных сайтов в выдаче поисковой системы Google 24
2.1. Проектирование модели определения рейтинга школьных сайтов в выдаче поисковой системы Google 24
2.2.Реализация модели определения рейтинга школьных сайтов в выдаче поисковой системы Google 26
Заключение 37
Список использованных источников 38

Advertisement
Узнайте стоимость Online
  • Тип работы
  • Часть диплома
  • Дипломная работа
  • Курсовая работа
  • Контрольная работа
  • Решение задач
  • Реферат
  • Научно - исследовательская работа
  • Отчет по практике
  • Ответы на билеты
  • Тест/экзамен online
  • Монография
  • Эссе
  • Доклад
  • Компьютерный набор текста
  • Компьютерный чертеж
  • Рецензия
  • Перевод
  • Репетитор
  • Бизнес-план
  • Конспекты
  • Проверка качества
  • Единоразовая консультация
  • Аспирантский реферат
  • Магистерская работа
  • Научная статья
  • Научный труд
  • Техническая редакция текста
  • Чертеж от руки
  • Диаграммы, таблицы
  • Презентация к защите
  • Тезисный план
  • Речь к диплому
  • Доработка заказа клиента
  • Отзыв на диплом
  • Публикация статьи в ВАК
  • Публикация статьи в Scopus
  • Дипломная работа MBA
  • Повышение оригинальности
  • Копирайтинг
  • Другое
Прикрепить файл
Рассчитать стоимость

Работа № 4129. Это ОЗНАКОМИТЕЛЬНАЯ ВЕРСИЯ работы, цена оригинала 1000 рублей. Оформлен в программе Microsoft Word.

Оплата. Контакты

ВВЕДЕНИЕ
В современном мире Интернет занимает всё больше и больше места в нашей жизни. Без сайтов социальных сетей уже не обходится ни одно крупное и малое предприятие или учреждение. Главной целью их создания является продвижение. После публикации сайт становится доступен пользователям интернет всего мира. За последние годы посещаемость сайтов Интернет начала превышать тиражи традиционных изданий. Для только что открывшейся фирмы сайт является основой для привлечения новых клиентов а чтобы сайт люди смогли найти его приходится продвигать всеми различными средствами. Но возьмем например сайт общеобразовательной школы его специально никто не продвигает он покоится в сети и только некоторые факторы заставляют его продвигаться в поиске. Сама поисковая система будь то Google или Яндекс по определенному алгоритму решает на какой позиции будет находиться этой сайт. Для того чтобы понять как влияют различные критерии на продвижение сайтов которые не двигаются в поиске специальными средствами а именно сайты общеобразовательных учреждений было задумано разработать нечеткую модель. Нечеткая модель покажет как определяется рейтинг школьных сайтов в выдаче поисковых систем.
Целью данной работы является построение нечеткой модели определение рейтинга школьных сайтов в выдаче поисковой системы в среде Matlab.
Для достижения цели необходимо выполнить следующие задачи
– изучить факторы ранжирования сайтов в поисковых системах изучить средства для создания моделей нечеткой логики
– построить модель рейтинга школьных сайтов в выдаче поисковой системы Google
– реализовать модель
Объект исследования сайты школ.
Предмет исследования определение рейтинга школьных сайтов в выдаче поисковой системы
В первой главе рассматривается сущность поисковых систем теоретические аспекты факторов ранжирования информации в выдаче поисковых систем а также анализ средств для создания моделей нечеткой логики.
Во второй главе рассматривается проектирование построение и реализация модели определения рейтинга школьных сайтов в выдаче поисковой системы Google.

1 ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ РАНЖИРОВАНИЯ ИНФОРМАЦИИ В ВЫДАЧЕ ПОИСКОВЫХ СИСТЕМ.

1.1 СУЩНОСТЬ ОРГАНИЗАЦИИ И УПРАВЛЕНИЯ ИНФОРМАЦИЕЙ В ПОИСКОВЫХ СИСТЕМАХ

Поиск информации — задача которую человечество решает уже многие столетия. По мере роста объема информации создавались более совершенные поисковые средства и приемы позволяющие найти необходимый документ. Одним из таких средств является информационно-поисковая система.
Главный элемент структуры современного Интернета — это поисковые системы. Поисковая система – это специальный веб узел или по-другому сайт который предоставляет пользователям по их запросам гиперссылки на страницы сайтов отвечающие на заданный поисковой запрос. Проще говоря поиск информации в интернете осуществляющийся благодаря программно-аппаратному функциональному набору и веб интерфейсу для взаимодействия с пользователями. Для взаимодействия человека с поисковой системой и был создан веб интерфейс то есть видимая и понятная оболочка. Данный подход разработчиков поисковиков облегчает поиск многим людям. Как правило именно в интернете осуществляется поиск при помощи поисковых систем но также существуют системы поиска для FTP-серверов отдельных видов товаров во всемирной паутине либо новостной информации или же другие поисковые направления. Поиск может осуществляться не только по текстовому наполнению сайтов но и по другим типам информации которые человек может искать изображения видео звуковые файлы и т.д [2].
Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com открывшийся весной 1994 года. После того как количество сайтов в каталоге Yahoo значительно увеличилось была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой так как поисковая область была ограничена только ресурсами присутствующими в каталоге а не всеми Интернет ресурсами.
Каталоги ссылок широко использовались ранее однако практически полностью утратили свою популярность в настоящее время. Так как даже современные огромные по своему объему каталоги содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ его еще называют Open Directory Project содержит информацию о 5 миллионах ресурсов тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.
Первой полноценной поисковой системой стал проект WebCrawler вышедший в свет в 1994 году.
В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.
В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google — самая популярная поисковая система в мире
В сентябре 1997 года была официально анонсирована поисковая система Yandex являющаяся самой популярной в русскоязычном Интернете [10].
Существует очень много поисковиков но среди них есть главные наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google. В российском же а точнее в русскоязычном Интернете наиболее популярный поисковик — Яндекс. Борьбу за пользователей также ведут российские поисковые системы «Рамблер «Апорт» поиск на Mail.ru и международные — Bing и Yahoo [1].
Поисковая система состоит из следующих основных компонентов
– Spider паук — браузероподобная программа которая скачивает веб-страницы
– Crawler краулер «путешествующий» паук – программа которая автоматически проходит по всем ссылкам найденным на странице
– Indexer индексатор — программа которая анализирует веб-страницы скаченные пауками
– Database база данных – хранилище скачанных и обработанных страниц
– Search engine results engine система выдачи результатов – извлекает результаты поиска из базы данных
– Web server веб-сервер – веб-сервер который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы [3].
Также опишем основные характеристики поисковых систем
Полнота — одна из основных характеристик поисковой системы представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет удовлетворяющих данному запросу.
Точность — еще одна основная характеристика поисковой машины которая определяется степенью соответствия найденных документов запросу пользователя.
Актуальность — не менее важная составляющая поиска которая характеризуется временем проходящим с момента публикации документов в сети Интернет до занесения их в индексную базу поисковой системы.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например по данным ООО «Рамблер Интернет Холдинг» на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают посетитель желает получить результаты как можно быстрее а поисковая машина должна отрабатывать запрос максимально оперативно чтобы не тормозить вычисление следующих запросов.
Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска [10].
1.2 ФАКТОРЫ РАНЖИРОВАНИЯ САЙТОВ В ВЫДАЧЕ ПОИСКОВЫХ СИСТЕМ
Если вы хотите чтобы ваш сайт продвигался самостоятельно необходимо анализировать алгоритмы поисковых систем и основные принципы ранжирования.
Ранжирование сайта – важный элемент поискового продвижения который определяет порядок выдачи согласно рангу авторитету и релевантности проиндексированных веб-ресурсов. По другому можно сказать что это своеобразный рейтинг ответов по которому выбираются лучшие сайты на поисковый запрос пользователя. Ранжирование сайта – это комплекс специальных алгоритмов по которым страницы сайтов проверяются на соответствие определенным правилам и нормам для поиска лучшего ответа пользователю [12].
Факторов которые учитывают поисковые системы при этом очень много счет идет на сотни или даже тысячи но не все из них представляют серьезную значимость и не на все из них мы может повлиять. Всю совокупность этих факторов влияющих на выдачу обычно условно делят на несколько групп
– Внутренние — контент веб страницы ее структура и правильность верстки а так же степень ее засспамленности ключевыми словам это те на которые может влиять владелец сайта потому что они находятся под его контролем
– Внешние — ссылочная релевантность учитываются тексты ссылок которые идут на ваш сайт их количество и качество ресурсов с которых они проставлены и так называемый траст сайта насколько поисковики ему доверяют
– Поведенческие факторы — оценивается поведение пользователей в поисковой выдаче и их поведение на самом сайте поисковики стремятся отслеживая это узнать насколько страница данного ресурса отвечает данному запросу — оценить правильность определения релевантности.
Внутренние факторы ранжирования которые можно подразделить на три категории
– Текстовое ранжирование — насколько текст документа соответствует запросу пользователя
– Качество контента — насколько данный текст уникален авторский ли он насколько он грамотный с точки зрения русского языка и насколько он близок к естественному
– Свойства самого сайта — входят ли ключевые слова в название домена возраст ресурса и домена количество страниц.
К свойствам сайта относятся
– Возраст сайта с момента попадания в поисковый индекс а не с момента регистрации домена и возраст документа релевантность которого оценивается поисковиком. Это очень важный фактор в Яндексе если сайту меньше года то он не сможет пробиться в Топ по более-менее конкурентным запросам а полную силу ресурс набирает где-то через три года да и в Google есть похожий временной фактор который называется песочница когда молодые сайты не могут хорошо ранжироваться
– Формат документа релевантность которого оценивается поисковой системой. Лучше всего и в Яндексе и в Google ранжируются обычные Html документы а форматы Pdf Doc и другие хоть и индексируются но продвигать лучше именно страницы с html кодом
– Использование ключевых слов в Url адресе сайта — поисковики это до определенного момента очень любили но с некоторых пор за это можно попасть под фильтр Google если он посчитает это нужным.
– Наличие всплывающих баннеров может привести к пессимизации ресурса понижении в позициях результата поиска за счет вычитания значения релевантности
– Плохие доменные зоны и плохие Ip адреса хостинга.
Внешние или ссылочные факторы ранжирования
– Статические факторы не зависящие от того по какому именно запросу поисковик должен определить релевантность данного документа. К ним можно отнести page rank Тиц Яндекса и т.п.
– Динамические факторы или ссылочное ранжирование — насколько релевантны тексты ведущих на данный документ ссылок тому запросу который вводит пользователь в поисковой строке.
Пользовательские или поведенческие факторы
– Кликабельность CTR вашего ресурса в результатах поиска — один из самых влиятельных поведенческих факторов и одновременно один из самых неоднозначных ибо если вашего сайта нет в Топе то и кликов никаких по нему не будет а если у вас нету кликов то как вы попадете в топ
– Статистика посещаемости — фактор который может опираться на анализ и учет источников трафика
– Поведение пользователей на странице — могут учитываться активные действия проведенное на ней время внутренние переходы и переходы на другие ресурсы.
Помимо этих 3 факторов еще имеют значения еще факторы.
Региональные факторы при определении релевантности — последнее время они очень заметны в Яндексе когда в выдачах по какому-либо региону России отдается предпочтение ресурсам относящимся именно к этому региону.
Запросные факторы — скорее всего для коммерческих и информационных запросов используются разные формулы расчета релевантности[5].
В современном компьютезированном мире для продвижения той или иной продукции услуги или же информации посредством Интернета огромное значение имеет анализ сайта. Он предназначен прежде всего для получения достоверной информации о положении вашего сайта в поисковых системах. Данный вид анализа называется SEO. Необходимо остоянно проводить своевременный SEO анализ сайта после которого станет понятно какие его параметры необходимо совершенствовать. Он позволяет эффективно отслеживать информацию о его положении в поисковике причем при различных формах запроса и что немаловажно в постоянном режиме. Также SEO анализ предназначен для своевременного выявления проблем при заполнении тегов которые так нужны для продвижения.
Немаловажным элементом анализа является возможность отслеживания показателей ТИЦ тематический индекс цитирования и PR индикатор своеобразного «доверия» поисковой системы. Эти ключевые показатели и отражают эффективность или же наоборот неэффективность мер по продвижению площадки.
Иными словами SEO анализ служит для определения привлекательности сайта при интернет-поиске причем на основе полученных данных выбирается тот или иной метод SEO-оптимизации [6].
Проведя анализ домена вы получите исчерпывающую информацию о нем а именно вам будут известны
– дата регистрации и регистратор
– статус домена
– IP адрес вашего сайта
– название ключевые слова и описание сайта
– наличие свободных доменных имен в других зонах
– информацию о владельцеWhois
– тИЦ и PR
– наличие в каталогах
– скорость работы сайта
– видимость в поисковых системах
– количество проиндексированных страниц в Яндекс Google и других поисковиках
– география посетителей сайта
– статистика посещаемости ресурса
– количество внешних ссылок и упоминаний и др [7].
В Интернете на данный момент существует огромное количество сайтов которые бесплатно онлайн проводят анализ вашего и не только домена по разным критериям. Самые популярные и содержащие много информации это
Также если вы хотите проанализировать именно ваш сайт на помощь придут Google Analytics и Яндекс Вебмастер.

1.3 АНАЛИЗ СУЩЕСТВУЮЩИХ АЛГОРИТМОВ РАНЖИРОВАНИЯ В ПОИСКОВЫХ СИСТЕМАХ ЯНДЕКС И GOOGLE
Алгоритмы поисковых систем – это особые математические формулы по которым поисковые системы решают задачу выдачи сайтов в результаты поиска. Что учитывают поисковые системы при ранжировании сайтов знают лишь разработчики этих систем. Только лишь путём собственных проб и ошибок на практике можно выявить те или иные эффективные методы продвижения сайтов в первую десятку выдачи. Каждая поисковая система использует свои алгоритмы для поиска которые время от времени обновляются с целью осуществления более качественной выдачи. При вводе одного и того же поискового запроса в разных поисковых системах результаты выдачи будут отличаться. Потому что каждая поисковая система использует свои алгоритмы ранжирования.
Поисковая машина руководствуясь алгоритмом анализирует контент сайта выясняет наличие в составе контента ключевой фразы принимает решение о том насколько сайт соответствует запросу пользователя и в зависимости от степени соответствия присваивает сайту ту или иную позицию в выдаче – выше или ниже [4].
У поисковых систем есть несколько алгоритмов по которым они работают. Самый первый и самый старый алгоритм — это алгоритм прямого поиска. Поиск при помощи данного алгоритма нам дает достоверную на 100 информацию но в больших масштабах он не применим так как поиск информации занимает большое количество времени.
Второй алгоритм — это алгоритм инвертированных индексов. Данный алгоритм используется и сейчас всеми известными нам поисковыми системами Яндекс Rambler Google Yahoo и т.д. работают именно по этому алгоритму.
Что такое инвертированный обратный индекс — это текстовый файл содержащий список слов документа отсортированный в алфавитном порядке с указанием позиций и других параметров вхождения этих слов в документ. Преимущество использования данного алгоритма — это быстродействие. Так как поиск осуществляется не в самом документе в интернет страничках а вот в таких текстовых файлах. Недостаток такого алгоритма в том что происходит некое искажение информации так сказать потеря информации. Есть еще несколько алгоритмов поиска — но они мало используются и зачастую в целях эксперимента [11].
Рассмотрим историю поискового алгоритма Яндекс.
«Магадан»
14 апреля 2008 года по адресу buki.yandex.ru Яндекс начал тестировать новый поисковый алгоритм под названием «Магадан». В нём сервис научился понимать аббревиатуры. Кроме того алгоритм научился понимать транслит. «Магадан» также научился распознавать переходы из одной части речи в другую.
«Находка»
Вслед за анонсом «Магадан» началось тестирование новой версии алгоритма под названием «Находка». По заявлениям «Яндекса» основные изменения в программе связаны с новым подходом к машинному обучению и как следствие отличиями в способе учета факторов ранжирования в формуле. Компания улучшила ранжирование по запросам содержащим стоп-слова — союзы предлоги. Расширился тезаурус словарь связей. В «Находке» Яндекс сделал первый шаг к увеличению разнообразия в поисковой выдаче — поисковик предлагал как коммерческую составляющую так и информационную. Это в свою очередь привело к усилению конкуренции по многим запросам.
«Арзамас»
Яндекс запустил «Арзамас» 10 апреля 2009 года — сразу в основном поиске без выкладки на тестовый. 20 августа вышла версия «Арзамас 2» c новым классификатором гео-зависимости запросов. Первым нововведением стало внедрение алгоритма снятия омонимии. На основании лексической статистики слов Яндекс научился определять наиболее частотную форму омонимичной фразы а также научился по дополнительным словам из запроса определять наиболее вероятный смысл фразы. В «Арзамасе» Яндекс впервые начал учитывать регион пользователя. Выдача стала отличаться в зависимости от него. В поддержку регионального поиска был создан классификатор гео-зависимости запросов. Запросы начали делиться на два типа — гео-зависимые и гео-независимые. Соответственно по гео-зависимым запросам регион пользователя учитывался а по гео-независимым — нет и выдача у всех пользователей России была идентична. «Арзамас» значительно повлиял на рынок продвижения сайтов. Появился термин «региональное продвижение».
«Снежинск»
Алгоритм «Снежинск» был анонсирован 10 ноября 2009 года. Удалось создать более точную и гораздо более сложную математическую модель которая привела к существенному приросту в качестве поиска. Основным нововведением «Снежинска» стало внедрение нового метода машинного обучения — технологии «Матрикснет». С этого момента оптимизаторам стало сложнее просчитывать алгоритмы продвижения сайтов. В «Снежинске» ранжирование по гео-зависимым и гео-независимым запросам стало отличаться еще сильнее. По многим частотным гео-независимым запросам большинство коммерческих сайтов пропало с первых позиций уступив свое место информационным ресурсам. Это случилось из-за того что гео-независимые запросы отождествляются поисковиком с информационными запросами. Все это привело к том что коммерческим сайтам стало сложно попасть в топ-10 по высокочастотным запросам.
«Конаково»
Обновленная версия «Снежинска» — «Конаково» — вышла в декабре 2009 года. Компания улучшила региональное ранжирование теперь гео-зависимые запросы работали в 19 регионах и в 1250 городах России.
«Обнинск»
В сентябре 2010 года у «Яндекса» появился новый алгоритм «Обнинск». Улучшилось ранжирование по гео-независимым запросам пользователей из России была расширена формула ранжирования — её объём теперь достигает 280 МБ. «Обнинск» снизил влияние искусственных ссылок SEO-ссылок на ранжирование. Яндекс начал бороться с документами продвигаемыми некачественными покупными ссылками.
«Краснодар»
«Краснодар» появился в декабре 2010 года. В новом алгоритме Яндекс введрил технологию «Спектр» — «разбавление выдачи» по общим запросам всего порядка 60 категорий запросов — города товары и прочее. На момент релиза «Краснодара» у компании было 60 категорий. Если пользователь не достаточно конкретизировал свой запрос Яндекс выводил ему сайты в соответствии с этими категориями. Теперь поисковик ввел классификацию поисковых запросов и начал выделять ключевые объекты имена названия модели. В «Краснодаре» Яндекс добавил расширенные сниппеты для сайтов организаций — появилась возможность включить в сниппеты адреса телефоны компании и другое. Еще одним крупным нововведением стала индексация социальной сети «ВКонтакте» — Яндекс научился показывать в результатах своей выдачи профили пользователей из соцсети.
«Рейкьявик»
Алгоритм появился в августе 2011 года и стал первым шагом компании в направлении персонализации поиска каждому пользователю — своя поисковая выдача. Работа начала с языковой персонализации. Например если пользователю по англоязычным запросам нужны иностранные сайты Яндекс отображал именно их. Если же алгоритм решит что пользователь всё-таки ищет русскоязычный контент то будут показаны соответствующие русскоязычные сайты.
«Калининград»
«Калининград» в декабре 2012 года ввёл глобальную персонализацию поиска. Результаты поиска начали подстраиваться под интересы пользователя. Поисковый алгоритм изучал ранние запросы пользователя в поиске а также его поведению на сайтах статистика которых ему известна. Информацию об интересах пользователей Яндекс пополнял раз в сутки и делил их на долговременные и кратковременные. Таким образом по одному и тому же запросу могла быть сформирована совершенно разная выдача.
«Дублин»
«Дублин» — модификация «Калининграда» выпущенная 30 мая 2013 года. Если «Калининград» делил интересы на долговременные и кратковременные то новый алгоритм научился реагировать и на сиюминутные интересы — обновление происходило за несколько секунд.
«Острова»
В июле 2013 года Яндекс анонсировал «Острова» — интерфейсное изменение поисковой выдачи. Главным нововведением «Островов» являлись интерактивные блоки которые показывались в поисковой выдаче и позволяли взаимодействовать напрямую с содержимым найденных сайтов.
«Минусинск»
15 апреля 2015 года компания анонсировала новый алгоритм «Минусинск». Яндекс заявил что с 15 мая сайты для продвижения которых используются SEO-ссылки могут ранжироваться ниже. Представители «Яндекса» заявили что хотят направить деньги владельцев сайтов из ссылок в реальное улучшение ресурсов.
История алгоритмов Google.
В отличие от «Яндекса» Google неохотно раскрывает информацию о работе алгоритмов. Владельцам сайтов и оптимизаторов приходилось самостоятельно вычислять принципы работы поисковых технологий Google. В 2008 году компания запустила алгоритм «Дьюи» — однако детали его работы Google не раскрыла. В 2009 году поисковик запустил Google Suggest — поисковые подсказки.
«Кофеин»
В июне 2010 года Google завершил работу над инфраструктурным проектом «Кофеин». По словам представителей компании в результате было обновлено около 50 индекса. В августе обновление алгоритма позволило брендам получать сразу по несколько строк в результатах выдачи. В сентябре компания запускает Google Instant — формирование выдачи «на глазах» пользователей. В ноябре поисковик добавляет возможность предпросмотра сайта — рядом с результатами поиска появилась кнопка с лупой.
«Панда»
Алгоритм Google «Панда» был запущен 23 февраля 2011 года и повлиял на 12 всех результатов поиска. С его появлением тысячи сайтов потеряли свои позиции в поисковой выдаче что взбудоражило многих владельцев сайтов. Поначалу оптимизаторы думали что «Панда» штрафует сайты замеченные в участии в ссылочных схемах. Однако позже стало известно что основная задача алгоритма — оценка качества сайта. Какие именно факторы учитывает «Панда» при ранжировании сайтов точно не известно. Однако специалисты выявили закономерности в его работе. В частности «Панда» обращает внимание на качество контента — его новизну уникальность и ценность для посетителя. Это стало своеобразным ответом Google на огромное количество спама и скопированного контента. За четыре года Google более 20 раз официально обновлял алгоритм. Например в результатах появляются ссылки на разделы популярных сайтов изменяются некоторые факторы ранжирования что приводит к незначительному снижению влияния «Панды» на выдачу.
«Пингвин»
«Пингвин» был запущен 24 апреля 2012 года. В отличие от «Панды» этот алгоритм нацелен на борьбу с неестественными обратными ссылками. По некоторым оценкам под фильтр попало около 25 сайтов коммерческих тематик. Авторитет и значимость сайта в поисковой выдачи начали формировать исходя из того какие ресурсы на него ссылаются. «Пингвин» научился распознавать авторитетность источников. Если раньше все ссылки на сайт имели одинаковый вес из-за чего появилось больше количество ссылочных оптимизаторов то теперь Google определял вес каждого источника. Кроме того в результаты поиска добавились профили социальных сетей.
«Колибри»
Google «Колибри» называют самым «понимающим» алгоритмом. О его запуске стало известно 26 сентября 2013 года — при этом Google упомянула что алгоритм работает уже целый месяц. Из-за этого многие веб-мастера посчитали что попали под фильтр «Пингвина». Алгоритм «Колибри» был разработан для того чтобы лучше понимать запросы пользователей. Теперь когда пользователь вводит запрос «В каких местах можно вкусно поесть в Екатеринбурге» поисковая система понимает что под словом «места» подразумеваются рестораны и кафе. В октябре 2014 года Google также обновила алгоритм Pirate 2.0 наказывающий сайты за использование контента нарушающего авторские права.
«Mobilegeddon»
С 21 апреля 2015 года Google запустил новый алгоритм сортировки поисковой выдачи на мобильных устройствах о котором компания объявила еще в феврале. Теперь в поиске с мобильных устройств предпочтение отдается сайтам которые имеют мобильную версию — западные СМИ уже успели назвать событие «Mobilegeddon».
Google собирается автоматически проверять сайты на mobile-friendly по четырем критериям
– отсутствие контента который поддерживается не всеми мобильными устройствами например Flash
– наличие текста который доступен для чтения без масштабирования
– использование контента который не требует горизонтального скроллинга или масштабирования для просмотра
– расстановка гиперссылок на достаточном расстоянии друг от друга чтобы на них можно было легко нажать пальцем [14].

1.4 АНАЛИЗ СРЕДСТВ ДЛЯ СОЗДАНИЯ МОДЕЛЕЙ НЕЧЕТКОЙ ЛОГИКИ
Нечеткая логика основана на использовании оборотов естественного языка. Вы сами определяете необходимое число терминов и каждому из них ставите в соответствие некоторое значение описываемой физической величины. Для этого значения степень принадлежности физической величины к терму слову естественного языка характеризующего переменную будет равна единице а для всех остальных значений — в зависимости от выбранной функции принадлежности. Диапазон ее применения очень широк — от бытовых приборов до управления сложными промышленными процессами. Многие современные задачи управления просто не могут быть решены классическими методами из-за очень большой сложности описывающих их математических моделей.
Одним из основных методов представления знаний в экспертных системах являются продукционные правила позволяющие приблизиться к стилю мышления человека. Любое правило продукций состоит из посылок и заключения. Возможно наличие нескольких посылок в правиле в этом случае они объединяются посредством логических связок И ИЛИ. Обычно продукционное правило записывается в виде «ЕСЛИ посылка связка посылка… посылка ТО заключение». Главным же недостатком продукционных систем остается то что для их функционирования требуется наличие полной информации о системе.
Нечеткие системы тоже основаны на правилах продукционного типа однако в качестве посылки и заключения в правиле используются лингвистические переменные что позволяет избежать ограничений присущих классическим продукционным правилам [8].
Для проектирования моделей существует множество программных средств. Рассмотрим некоторые из них.
Matlab — это высокоуровневый язык и интерактивная среда для программирования численных расчетов и визуализации результатов. С помощью Matlab можно анализировать данные разрабатывать алгоритмы создавать модели и приложения. Язык инструментарий и встроенные математические функции позволяют вам исследовать различные подходы и получать решение быстрее чем с использованием электронных таблиц или традиционных языков программирования таких как CC++ или Java.
Matlab широко используется в таких областях как
– обработка сигналов и связь
– обработка изображений и видео
– системы управления
– автоматизация тестирования и измерений
– финансовый инжиниринг
– вычислительная биология и т.п.
Более миллиона инженеров и ученых по всем миру используют MATLAB в качестве языка технических вычислений. Matlab имеет специальное средство для работы с нечеткой логикой. Fuzzy Logic Toolbox обладает простым и хорошо продуманным интерфейсом позволяющим легко проектировать и диагностировать нечеткие модели. Обеспечивается поддержка современных методов нечеткой кластеризации и адаптивные нечеткие нейронные сети. Графические средства Fuzzy Logic Toolbox позволяют интерактивно отслеживать особенности поведения системы. Fuzzy Logic Toolbox предназначен для совместной работы с Simulink. С помощью Real-Time Workshop можно генерировать ANSI C код для работы в реальном времени [15].
Также для разработки приложений на базе нечеткой логики и нейросистем для задач автоматического управления компаниями INFORM Gmbh и Inform Software Corp. был разработан довольно мощный пакет программ получивший название fuzzy TECH. Этот пакет программ является средством моделирования и оптимизации проектов создания нечетких систем управления на базе микроконтроллеров он также является генератором ассемблерного кода поддерживающим большое количество современного оборудования. Основными шагами разработки программ на FuzzyTECH являются
– Формализация поставленной задачи — определение лингвистических переменных сопоставление термов с конкретными физическими значениями
– Разработка базы правил определяющей стратегию управления — задание метода дефаззификации выходных данных
– Оптимизация разработанной системы в режиме off-line — интерактивный анализ поведения системы с использованием заранее подготовленных данных при помощи программной модели объекта управления
– Оптимизация в режиме on-line — подключение созданной системы управления к реальному объекту и оптимизация различных компонентов системы в реальных условиях т. к. в модели объекта управления невозможно учесть все тонкости процесса то данный режим отладки весьма важен при создании систем управления
– Реализация — на этом этапе выбирается вариант генерируемого кода в зависимости от потребностей. Полученный код для микроконтроллера может быть связан с основной программой [16].
2 ПРОЕКТИРОВАНИЕ И ПОСТРОЕНИЕ МОДЕЛИ ОПРЕДЕЛЕНИЯ РЕЙТИНГА ШКОЛЬНЫХ САЙТОВ В ВЫДАЧЕ ПОИСКОВОЙ СИСТЕМЫ GOOGLE
2.1. ПРОЕКТИРОВАНИЕ МОДЕЛИ ОПРЕДЕЛЕНИЯ РЕЙТИНГА ШКОЛЬНЫХ САЙТОВ В ВЫДАЧЕ ПОИСКОВОЙ СИСТЕМЫ GOOGLE
Для построения модели были взяты школьные сайты и определение их рейтинга в выдаче поисковой системы Google. Для этого мы воспользовались специальными сервисами для анализа сайтов такими как
Был проведен анализ 10 сайтов школ города Екатеринбурга. Данные показаны на рисунке 4.
Рисунок 4 – Проанализированные данные
Вследствие этих данных был сформирован диапазон для значения параметров. Эти критерии и станут входными параметрами для модели. Это
1. PR PageRank он изменяется от 0 до 3 и имеет значения
– низкий от 0 до 1
– средний от 1 до 2
– высокий от 2 до 3
2. Время загрузки сайта в секундах оно изменяется от 0 до 6 секунд и имеет значения
– быстрая от 0 до 0.50
– средняя от 0.50 до 1
– медленная от 1 и 6
3. Кол-во уникальных посетителей сайта за сутки оно изменяется от 0 до 412 и имеет значения
– низкое от 0 до 75
– среднее от 75 до 300
– высокое от 300 до 412
Выходной параметр – результат продвижения сайтов – будет устанавливаться базой правил созданной различными комбинациями входных переменных по правилу «Если…. то….». Он имеет значения
– высокий от 0 до 30
– средний от 30 до 70
– низкий от 70 до 100

2.2. РЕАЛИЗАЦИЯ МОДЕЛИ ОПРЕДЕЛЕНИЯ РЕЙТИНГА ШКОЛЬНЫХ САЙТОВ В ВЫДАЧЕ ПОИСКОВОЙ СИСТЕМЫ GOOGLE
Создание модели определения рейтинга школьных сайтов в выдаче поисковой системы Google было проведено в программе Matlab. Она имеет специальное средство для работы с нечеткой логикой — Fuzzy Logic Toolbox.
Чтобы попасть в Fuzzy Logic Toolbox необходимо ввести «fuzzy» в Command Window.
На рисунке 2 расположено главное окно программы.
Рисунок 2 – Главное окно Matlab
На рисунке 3 показан интерфейс Fuzzy Logic Toolbox.
Рисунок 3 — интерфейс Fuzzy Logic Toolbox
В окне Fuzzy Logic Toolbox мы видим желтый прямоугольник это — входная переменная голубой — выходная переменнная и по середине алгоритм настроить который мы можем по двойному щелчку мыши.
Приступим к работе. Для начала перенесем наши данные в модель. Первая входная переменная PageRank показана на рисунке 5.
Рисунок 5 – Входная переменная «PageRank»
Следующая входная переменная это время загрузки сайта она показана на рисунке 6.
Рисунок 6 – Входная переменная «Время загрузки»
И последней входной переменной является «Посетители» она показана на рисунке 7.
Рисунок 7 – Входная переменная «Посетители»
Выходная переменная «Рейтинг сайта» представлена на рисунке 8.
Рисунок 8 – Выходная переменная «Рейтинг сайта»
Далее нужно сформировать список правил составлять его будем на основе ранее проанализированных данных. Всего будет 27 правил. Создадим первое правило представленное на рисунке 9 для следующих значений входящих переменных
 PageRank «низкий»
 Времязагрузки «медленное»
 Посетители «низкое».
Рисунок 9 – Создание первого правила
Далее по такому же принципу сформируем остальные 26 правил.
Рисунок 10 – Первая часть правил
Рисунок 11 – Вторая часть правил
Общий вид модели показ на рисунке 12.
Рисунок 12 – Общий вид модели
Модель также можно представить в виде графика в окне Surface Viewer. Этот модуль позволяет вывести графическое изображение зависимости значения любой выходной переменной от произвольных двух или одной входных переменных. Данный способ позволяет наглядно продемонстрировать влияние факторов на рейтинг сайта. В качестве оси Z выступает выходная переменная а оси Х и Y представляют входные переменные. График Surface Viewer показан на рисунке 13.
Рисунок 13 — Surface Viewer
Также модель можно посмотреть в окне Rule Viewer. В нем можно менять параметры модели и сразу же будет показан результат.
Рисунок 14 — Rule Viewer
После проектирования модели ее нужно протестировать. Для этого возьмем три набора входных данных и проверим правильность выходной информации. Возьмем 3 набора данных на основе проанализированных сайтов школ.
Возьмем школьный сайт — www.школа-96.рф. Он имеет следующие данные
1. PageRank 3
2. Время загрузки сайта 0.10 секунды
3. Количество посетителей за сутки 412
Рисунок 15 – Тестирование первого набора данных
В результате мы видим что выходной параметр 89.8 а это значит что результат продвижения сайта высокий.
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ